VIP STUDY сегодня – это учебный центр, репетиторы которого проводят консультации по написанию самостоятельных работ, таких как:
  • Дипломы
  • Курсовые
  • Рефераты
  • Отчеты по практике
  • Диссертации
Узнать цену
Главная / Рефераты / Документальные информационные системы

Документальные информационные системы

7.1. Виды документальных информационных систем Первоначальным направлением развития СУП/1 стала разработка и использование фактографических информационных систем, которые ориентированы на обработку структурированных данных. Были разработаны модели организации фактографических данных, отработаны программно-технические решения по накоплению и физическому хранению таких данных, реализованы языки запросов к БД. Однако создание фактографических информационных систем требует предварительной структуризации данных, например, на основе Таблиц. Она зачастую требует больших накладных расходов. Вместе с тем накапливаются большие объемы неструктурированной информации: в организационно-распорядительных документах или других текстовых источниках. Представление такой информации в фактографических системах зачастую экономически не оправдано. Теоретические исследования вопросов автоматизации обработки неструктурированной информации, начавшись еще в 50-х годах, пока не привели к созданию такой строгой, ПОЛНОЙ и технически реализуемой модели представления и обработки данных, как реляционная модель. Пока не разработаны стандартные информационно-поисковые языки (подобные SQL), которые можно было бы использовать для формализованного описания содержания документов и построения запросов |14]. Элементом данных в документальных ИС является документ (в фактографических информационных системах элементом является запись). Обычно под документом понимается текстовый файл. Основной задачей документальных информационных систем является хранение и предоставление пользователю документов, содержание которых соответствуют его информационным потребностям. 155 Документальная информационная система (ДИС) единое хранилище документов с инструментарием поиска и выдачи, необходимых пользователю документов [14]. Поисковый характер документальных информационных систем определил еще одно их название информационно-поисковые системы (ИПС). Соответствие найденных документов информационным потребностям пользователя называется пертинентностью. В силу теоретических и практических сложностей формализации смысловою содержания документов пертинентность относится скорее к качественным понятиям. В зависимости от особенностей реализации хранилища документов и механизмов поиска, ДИС можно разделить на две группы [14]: ¦ системы на основе индексирования; ¦ семантически-навигационные системы. Семантика (от греч. semantikos — обозначающий) — значения единиц языка. В семантически-навигационных (гипертекстовых) системах документы, помещаемые в хранилище документов, оснащаются специальными навигационными конструкциями (гиперссылками), соответствующими смысловым связям между различными документами или отдельными фрагментами одного документа. В системах на основе индексирования исходные документы помещаются в базу без какого-либо дополнительною преобразования, но при этом смысловое содержание каждою документа отображается в некоторое поисковое пространство. Процесс отображения документа в поисковое пространство называется индексированием и заключается в присвоении каждому документу некоторого индекса координаты в поисковом пространстве. Формализованное представление индекса документа называется поисковым образом документа (ПОД). Пользователь выражает свои информационные потребности посредством специального языка, формируя поисковый образ запроса (ПОЗ) к базе документов [14]. На основе определенных критериев ДИС осуществляет поиск и выдачу документов, поисковые образы которых соответствуют поисковым образам запроса пользователя. Соответствие найденных документов запросу пользователя называется релевантностью. Схема устройства и функционирования ДИС на основе индексирования приведена на рис. 7.1 [14]. 156 Документ Отражение Поисковое пространство под Гд поз Запрос Рис. 7.1. Схема функционирования ДИС на основе индексирования Информационно-поисковый язык (ПНЯ) представляет собой некоторую формализованную семантическую систему, предназначенную для выражения содержания документа и ПОИСКОВОГО запроса [14]. Основными элементами ИПЯ являются алфавит, лексика и грамматика. Алфавит ИПЯ система знаков, используемых для записи слов и выражений ИПЯ. Лексика, или словарный состав, ИПЯ совокупность слов, словосочетаний и выражений, используемых для построения текстов ИПЯ. Грамматика ИПЯ совокупность средств и способов построения, изменения и сочетания лексических единиц. Грамматика включает морфологию и синтаксис. Можно указать следующие требования, которым должен удовлетворять ИПЯ [14,29]: ¦ располагать лексико-грамматическими средствами для точного отображения темы документа и запроса; ¦ не содержать полисемии. СИНОНИМИИ И омонимии; ¦ отображать только объективные характеристики предметов и отношении между ними; ¦ быть удобным для алгоритмического сопоставления ПОД и ПОЗ. Построение выражений ИПЯ требует решения, по крайней мере, двух проблем. Первая из них связана с выбором лексических единиц ИПЯ, необходимых для построения выражений. Выбор слов определяется ИХ смыслом, обусловленным парадигматическими отношениями между предметами и явлениями, которые они определяют. 157 Парадигматические отношения - это отношения, обусловленные наличием логических связей между предметами и явлениями, обозначенными данными слонами. Перечислим некоторые парадигматические отношения (33): ¦ «вид род», например, «шкаф—мебель». В данном случае понятие «шкаф» является ВИДОВЫМ по отношении) к понятию «мебель». Родовое понятие всегда включает в себя видовое; ¦ -часть -целое», например «лезвие -нож»; ¦ «причина следствие»,например, «лампа—свет»; ¦ «функциональное сходство», например, «лопата—экскаватор». Естественный язык обладает высокой многозначностью. В ИПЯ недопустима многозначность. Поэтому здесь необходимо учитывать отношения синонимии и омонимии слов естественного языка, используемых в ИПЯ. Омонимия — это совпадение слов по написанию или звучанию и несовпадение по смыслу. Полисемия слова состоит в том, что одно и то же слово выражает пучок родственных понятий. Например, слово «соль» обозначает вещество, а также понятие смысла. Оба значения близки по сути. Синонимия это совладение слов по значению и несовпадение по написанию. Вторая проблема построения фраз ИПЯ связана с определением последовательности выбранных слов. Синтагматические отношения — отношения слов при соединении их в словосочетания и фразы. Для уточнения смысла документа или запроса, помимо ключевых слов, часто необходимо указывать, в каких синтагматических отношениях эти слова находятся. Так, фраза щита окружающей среды от человека" и фраза «защита человека от окружающей среды» имеют совершенно разный СМЫСЛ, хотя и состоят из ОДНИХ и тех же ключевых слов [33]. Многообразие используемых в ИПЯ парадигматических и синтагматических отношений определяет семантическую силу ИПЯ. По способу организации понятий различают следующие ИПЯ: ¦ предкоординирусмые (классификационные) ИПЯ; ¦ посткоординируемые (дескрииторпые) ИПЯ. Предкоординация — предварительное (до использования при индексировании) построение сложных классов путем логического умножения (координации) простых классов. Словарный состав задается 158 в виде фиксированного списка слов, словосочетаний и фраз. Введение в язык новых лексических единиц строго ограничено и возможно лишь до индексирования документов, т. е. при создании языка [14, 29]. Посткоординируемые (дескрипторные) языки основаны на методе координатного индексирования. В иоеткоординпруемых ИПЯ лексические единицы объединяются в поисковом образе лишь во время индексирования документа. Словарь дескрпнторного ИПЯ состоит из специальным образом выбранных отдельных слов или словосочетаний естественного языка ключевых слов и дескрипторов [14, 29]. Координатное индексирование, при котором основное смысловое содержание текста (документа) или информационного запроса представляется в виде сочетания ключевых СЛОВ пли дескрипторов. Ключевые слова это наиболее существенные для отображения содержания документа слова и словосочетания, обладающие назывной функцией. К классификационным языкам относят [14]: ¦ информационно-поисковый язык иерархического типа; ¦ информационно-поисковый язык фасетного типа; ¦ алфавитно-предметную классификацию. Основными показателями эффективности функционирования ДИС являются полнота и точность информационного поиска [14]. Полнота информационного поиска R определяется отношением числа найденных релевантных документов А к общему числу релевантных документов С, имеющихся в системе [14]: с Точность информационного поиска Р определяется отношением числа найденных релевантных документов А к общему числу документов L, выданных на запрос пользователя [14]: L Наличие среди отобранных на запрос пользователя нерелевантных документов называется информационным шумом системы. Коэффициент информационного шума К определяется отношением числа нерелевантных документов (L - А), выданных в ответе пользо- 159 вателю, к общему числу документов L, выданных на запрос пользователя [14]:

Каталог работ Узнать цену


Похожие рефераты:

Отзывы

Выражаю благодарность репетиторам Vip-study. С вашей помощью удалось решить все открытые вопросы.

Далее
Узнать цену Вашем городе
Выбор города
Принимаем к оплате
Информация
Онлайн-оплата услуг

Наша Компания принимает платежи через Сбербанк Онлайн и терминалы моментальной оплаты (Элекснет, ОСМП и любые другие). Пункт меню терминалов «Электронная коммерция» подпункты: Яндекс-Деньги, Киви, WebMoney. Это самый оперативный способ совершения платежей. Срок зачисления платежей от 5 до 15 минут.

По вопросам сотрудничества

По вопросам сотрудничества размещения баннеров на сайте обращайтесь по контактному телефону в г. Москве 8 (495) 642-47-44